1
Oltre le Parole: Comprendere la Tokenizzazione e il Test del Caramello
AI010Lesson 3
00:00

L'Architettura Nascosta del Linguaggio

I modelli linguistici di grandi dimensioni (LLM) non "leggono" il testo come fanno gli esseri umani. Mentre noi vediamo lettere e parole, i modelli elaborano le informazioni in blocchi numerici chiamati Token. Comprendere questa astrazione è il primo passo per padroneggiare l'ingegneria dei prompt e la progettazione dei sistemi.

Il Test del Caramello

Perché un modello linguistico ha difficoltà a invertire le lettere nella parola "lollipop", ma riesce immediatamente quando viene chiesto di invertire "l-o-l-l-i-p-o-p"?

  • Il Problema:Nella parola standard, il modello vede un singolo token che rappresenta tutta la parola. Non ha una chiara "mappa" delle singole lettere all'interno di quel token.
  • La Soluzione:Inserendo trattini tra le lettere, costringi il modello a suddividere ogni lettera in un token separato, fornendogli la visione dettagliata necessaria per completare il compito.

Principi Fondamentali

  • Rapporto Token:Come regola generale, 1 token equivale approssimativamente a 4 caratteri in inglese, o circa 0,75 di una parola.
  • Finestre di Contesto:I modelli hanno una dimensione fissa di "memoria" (ad esempio, 4096 token). Questo limite include sia le tue istruzioni che la risposta del modello.
Base vs. Adattato a Istruzioni
  • Modelli Base LLM:Prevedono la parola successiva più probabile basandosi su enormi insiemi di dati (ad esempio, "Qual è la capitale della Francia?" potrebbe essere seguita da "Qual è la capitale della Germania?").
  • Modelli LLM Adattati a Istruzioni:Affinati tramite Apprendimento per Rinforzo dal Feedback Umano (RLHF) per seguire comandi specifici e agire come assistenti.
token_counter.py
TERMINALbash — 80x24
> Ready. Click "Run" to execute.
>
Question 1
If you are processing a document that is 3,000 English characters long, roughly how many tokens will the model consume?
A) 3,000 tokens
B) 750 tokens
C) 12,000 tokens
Question 2
Why is an Instruction-Tuned LLM preferred over a Base LLM for building a chatbot?
A) It is faster at generating text.
B) It uses fewer tokens.
C) It is trained to follow specific tasks and dialogue formats.
Challenge: Token Estimation
Apply the token ratio rule to a real-world scenario.
You are designing an automated summarization system. The system receives daily reports that average 10,000 characters in length.

Your API provider charges $0.002 per 1,000 tokens.
Step 1
Estimate the number of tokens for a single daily report.
Solution:
Using the rule of thumb (1 token ≈ 4 characters):
$$ \text{Tokens} = \frac{10,000}{4} = 2,500 \text{ tokens} $$
Step 2
Calculate the estimated cost to process one daily report.
Solution:
The cost is $0.002 per 1,000 tokens.
$$ \text{Cost} = \left( \frac{2,500}{1,000} \right) \times 0.002 = 2.5 \times 0.002 = \$0.005 $$